近年来,人们对建立面孔和名人声音之间的关联的兴趣越来越大,从而利用YouTube的视听信息。先前的工作采用公制学习方法来学习适合关联匹配和验证任务的嵌入式空间。尽管显示出一些进展,但由于依赖距离依赖的边缘参数,运行时训练的复杂性差以及对精心制作的负面采矿程序的依赖,这种制剂是限制性的。在这项工作中,我们假设一个丰富的表示形式以及有效但有效的监督对于实现面部voice关联任务的歧视性关节嵌入空间很重要。为此,我们提出了一种轻巧的插件机制,该机制利用这两种方式中的互补线索以通过正交性约束来根据其身份标签形成丰富的融合杂物并将其簇形成。我们将我们提出的机制作为融合和正交投影(FOP)创造,并在两个流网络中实例化。在Voxceleb1和Mav-Celeb数据集上评估了总体结果框架,其中包括许多任务,包括跨模式验证和匹配。结果表明,我们的方法对当前的最新方法有利,而我们提出的监督表述比当代方法所采用的方法更有效。此外,我们还利用跨模式验证和匹配任务来分析多种语言对面部声音协会的影响。代码可用:\ url {https://github.com/msaadsaeed/fop}
translated by 谷歌翻译